Use tokenizers from 🤗 Tokenizers
ファイルがtokenizer.json 1ファイルのみ
The PreTrainedTokenizerFast depends on the 🤗 Tokenizers library.
The tokenizers obtained from the 🤗 Tokenizers library can be loaded very simply into 🤗 Transformers.
Loading directly from the tokenizer object
PreTrainedTokenizerFast(tokenizer_object=tokenizer)
tokenizersライブラリを使って訓練したトークナイザを渡す
Loading from a JSON file
PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
saveしたjsonファイルを渡してインスタンスを初期化する